実験1: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)
背景
GPT-4Vを使えば、そこからプロンプトを作ってと指示することによって、簡単にプロンプトが手に入る。 そのプロンプトを使い、DALL-Eに指示をすれば、似たような画像が得られる。
Midjourneyのdescribe機能と同じようなことができる。
一方でどれくらい精度が高いのか?
出力は安定するのか?
など気になる点は多い。
そこで、いくつかの画像を対象に、実験結果をここにまとめる
実験方法
情報量の異なる3つの画像を用意する
GPT-4Vに読み込ませ、
この画像を説明した、画像生成AI用のプロンプトを作ってください。英語で出力をお願いします。
と指示を出す
得られたプロンプトを、DALL-E3に対し打ち込む
再生成を繰り返し(計4回)、得られた画像と元の画像を比較して精度を推定する
結果
Case1. 情報量の少ないシンプルな画像
https://scrapbox.io/files/655952662b412b001c287702.png
結果
https://scrapbox.io/files/65597e1df8ce63001bb4b1a4.png
全く異なる画像になってしまった。(秋刀魚を理解していないようだ)
Case2. 情報量が普通の画像
https://scrapbox.io/files/65595279a251ab001b53ad25.jpg
結果
https://scrapbox.io/files/655981593b8aed001c1e02b1.png
構図や被写体、風景などはあっているが、画像のスタイルが全く異なるものになった
Case3. 情報量が多い画像
https://scrapbox.io/files/6559529206146d001b94d063.jpg
結果
https://scrapbox.io/files/65597d7c2b412b001c29c976.png
Case2と同様に、構図や被写体、風景などはあっているが、画像のスタイルが全く異なるものになった
考察
GPT-4Vに、シンプルな指示でImage to Imageをすると、スタイルが異なる画像が出される傾向にある。
この画像を説明した、画像生成AI用のプロンプトを作ってください。英語で出力をお願いします。
この指示をもっと修正にすれば、情報量を多く読み取れ、特にスタイルを統一することができると予想される